智能论文笔记

Evaluating the Stability of Deep Image Quality Assessment With Respect to Image Scaling

Koki Tsubota , Hiroaki Akutsu , Kiyoharu Aizawa

分类：计算机视觉

2022-07-20

图像质量评估（IQA）是图像处理任务（例如压缩）的基本指标。使用了全参考iQA，使用了传统的智商，例如PSNR和SSIM。最近，还使用了基于深神经网络（深IQA）的IQA，例如LPIPS和DIST。众所周知，图像缩放在深IQA中是不一致的，因为有些则在预处理中执行下降，而另一些则使用原始图像大小。在本文中，我们表明图像量表是影响深度IQA性能的影响因素。我们在同一五个数据集上全面评估了四个深IQA，实验结果表明，图像量表会显着影响IQA性能。我们发现，最合适的图像量表通常既不是默认尺寸也不是原始大小，并且选择取决于所使用的方法和数据集。我们看到了稳定性，发现PIEAPP是四个深IQA中最稳定的。

translated by 谷歌翻译

RANA: Relightable Articulated Neural Avatars

Umar Iqbal , Akin Caliskan , Koki Nagano , Sameh Khamis , Pavlo Molchanov , Jan Kautz

分类：计算机视觉

2022-12-06

We propose RANA, a relightable and articulated neural avatar for the photorealistic synthesis of humans under arbitrary viewpoints, body poses, and lighting. We only require a short video clip of the person to create the avatar and assume no knowledge about the lighting environment. We present a novel framework to model humans while disentangling their geometry, texture, and also lighting environment from monocular RGB videos. To simplify this otherwise ill-posed task we first estimate the coarse geometry and texture of the person via SMPL+D model fitting and then learn an articulated neural representation for photorealistic image generation. RANA first generates the normal and albedo maps of the person in any given target body pose and then uses spherical harmonics lighting to generate the shaded image in the target lighting environment. We also propose to pretrain RANA using synthetic images and demonstrate that it leads to better disentanglement between geometry and texture while also improving robustness to novel body poses. Finally, we also present a new photorealistic synthetic dataset, Relighting Humans, to quantitatively evaluate the performance of the proposed approach.

translated by 谷歌翻译

Learning to Relight Portrait Images via a Virtual Light Stage and Synthetic-to-Real Adaptation

Yu-Ying Yeh , Koki Nagano , Sameh Khamis , Jan Kautz , Ming-Yu Liu , Ting-Chun Wang

分类：计算机视觉 | 机器学习

2022-09-21

鉴于一个人的肖像图像和目标照明的环境图，肖像重新旨在重新刷新图像中的人，就好像该人出现在具有目标照明的环境中一样。为了获得高质量的结果，最近的方法依靠深度学习。一种有效的方法是用高保真输入输出对的高保真数据集监督对深神经网络的培训，并以光阶段捕获。但是，获取此类数据需要昂贵的特殊捕获钻机和耗时的工作，从而限制了对少数机智的实验室的访问。为了解决限制，我们提出了一种新方法，该方法可以与最新的（SOTA）重新确定方法相提并论，而无需光阶段。我们的方法基于这样的意识到，肖像图像的成功重新重新取决于两个条件。首先，该方法需要模仿基于物理的重新考虑的行为。其次，输出必须是逼真的。为了满足第一个条件，我们建议通过通过虚拟光阶段生成的训练数据来训练重新网络，该培训数据在不同的环境图下对各种3D合成人体进行了基于物理的渲染。为了满足第二种条件，我们开发了一种新型的合成对真实方法，以将光真实主义带入重新定向网络输出。除了获得SOTA结果外，我们的方法还提供了与先前方法相比的几个优点，包括可控的眼镜和更暂时的结果以重新欣赏视频。

translated by 谷歌翻译

Improving Robustness to Out-of-Distribution Data by Frequency-based Augmentation

Koki Mukai , Soichiro Kumano , Toshihiko Yamasaki

分类：计算机视觉

2022-09-06

尽管卷积神经网络（CNN）在图像识别方面具有很高的精度，但它们容易受到对抗性示例和分布数据的影响，并且已经指出了人类识别的差异。为了提高针对分布数据的鲁棒性，我们提出了一种基于频率的数据增强技术，该技术将频率组件用同一类的其他图像替换。当培训数据为CIFAR10并且分发数据的数据为SVHN时，使用该方法训练的模型的接收器操作特征（AUROC）曲线从89.22 \％\％增加到98.15 \％，并进一步增加到98.59\％与另一种数据增强方法结合使用。此外，我们在实验上证明了分布外数据的可靠模型使用图像的许多高频组件。

translated by 谷歌翻译

World Robot Challenge 2020 -- Partner Robot: A Data-Driven Approach for Room Tidying with Mobile Manipulator

Tatsuya Matsushima , Yuki Noguchi , Jumpei Arima , Toshiki Aoki , Yuki Okita , Yuya Ikeda , Koki Ishimoto , Shohei Taniguchi , Yuki Yamashita , Shoichi Seto

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-07-20

使用移动操纵器来整理家庭环境，在机器人技术中提出了各种挑战，例如适应大型现实世界的环境变化，以及在人类面前的安全和强大的部署。2021年9月举行的全球竞赛，对真正的家庭环境中的整理任务进行了基准测试，重要的是，对全面的系统性能进行了测试。对于此挑战，我们开发了整个家庭服务机器人系统，该机器人系统利用数据驱动的方法来适应众多的方法在执行过程中发生的边缘案例，而不是经典的手动预编程解决方案。在本文中，我们描述了提出的机器人系统的核心成分，包括视觉识别，对象操纵和运动计划。我们的机器人系统赢得了二等奖，验证了数据驱动的机器人系统在家庭环境中移动操作的有效性和潜力。

translated by 谷歌翻译

Beyond Real-world Benchmark Datasets: An Empirical Study of Node Classification with GNNs

Seiji Maekawa , Koki Noda , Yuya Sasaki , Makoto Onizuka

分类：机器学习

2022-06-18

图神经网络（GNN）在节点分类任务上取得了巨大成功。尽管对开发和评估GNN具有广泛的兴趣，但它们已经通过有限的基准数据集进行了评估。结果，现有的GNN评估缺乏来自图的各种特征的细粒分析。在此激励的情况下，我们对合成图生成器进行了广泛的实验，该实验可以生成具有控制特征以进行细粒分析的图形。我们的实证研究阐明了带有节点类标签的真实图形标签的四个主要特征的GNN的优势和劣势，即1）类规模分布（平衡与失衡），2）等级之间的边缘连接比例（均质VS之间）异性词），3）属性值（偏见与随机），4）图形大小（小与大）。此外，为了促进对GNN的未来研究，我们公开发布了我们的代码库，该代码库允许用户用各种图表评估各种GNN。我们希望这项工作为未来的研究提供有趣的见解。

translated by 谷歌翻译

Efficient Geometry-aware 3D Generative Adversarial Networks

Eric R. Chan , Connor Z. Lin , Matthew A. Chan , Koki Nagano , Boxiao Pan , Shalini De Mello , Orazio Gallo , Leonidas Guibas , Jonathan Tremblay , Sameh Khamis

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-15

使用单视图2D照片仅集合，无监督的高质量多视图 - 一致的图像和3D形状一直是一个长期存在的挑战。现有的3D GAN是计算密集型的，也是没有3D-一致的近似;前者限制了所生成的图像的质量和分辨率，并且后者对多视图一致性和形状质量产生不利影响。在这项工作中，我们提高了3D GAN的计算效率和图像质量，而无需依赖这些近似。为此目的，我们介绍了一种表现力的混合明确隐式网络架构，与其他设计选择一起，不仅可以实时合成高分辨率多视图一致图像，而且还产生高质量的3D几何形状。通过解耦特征生成和神经渲染，我们的框架能够利用最先进的2D CNN生成器，例如Stylega2，并继承它们的效率和表现力。在其他实验中，我们展示了与FFHQ和AFHQ猫的最先进的3D感知合成。

translated by 谷歌翻译

Frame Averaging for Equivariant Shape Space Learning

Matan Atzmon , Koki Nagano , Sanja Fidler , Sameh Khamis , Yaron Lipman

分类：计算机视觉 | 机器学习

2021-12-03

形状空间学习的任务涉及使用良好的概括性属性映射到从潜在表示空间的列车组。通常，真实世界的形状系列具有对称性，可以定义为不改变形状本质的转换。在形状空间学习中纳入对称性的自然方式是要求将其映射到形状空间（编码器）和从形状空间（解码器）映射到相关的对称。在本文中，我们通过引入两个贡献，提出了一种在编码器和解码器中融入设备和解码器的框架：（i）适应建设通用，高效和最大富有表现力的Autorencoders的最近帧平均（FA）框架; （ii）构建自动化器等于分段欧几里德运动的分段应用于形状的不同部分。据我们所知，这是第一个完全分段的欧几里德的欧洲等自动化器建设。培训我们的框架很简单：它使用标准的重建损失，不需要引入新的损失。我们的体系结构由标准（骨干网）架构构成，具有适当的帧平均，使其成为等效。使用隐式的神经表示，在两个刚性形状数据集上测试我们的框架，并使用基于网格的神经网络的铰接形状数据集显示出技术的概括，以通过大边缘改善相关基线。特别地，我们的方法表明了概括铰接姿势的概括性的显着改善。

translated by 谷歌翻译

Graph Signal Restoration Using Nested Deep Algorithm Unrolling

Masatoshi Nagahama , Koki Yamada , Yuichi Tanaka , Stanley H. Chan , Yonina C. Eldar

分类：机器学习

2021-06-30

图表信号处理是一种普遍存在的任务，如传感器，社会，运输和大脑网络，点云处理和图形神经网络等许多应用程序。通常，图形信号在感测过程中损坏，从而需要恢复。在本文中，我们提出了一种基于深度算法展开（DAU）的图形信号恢复方法。首先，我们通过展开乘法器（ADMM）的交替方向方法的迭代来呈现曲线图信号置位。然后，我们建议通过展开即插即用ADMM（PNP-ADMM）的迭代进行线性劣化的一般恢复方法。在第二种方法中，将展开的基于ADMM的Denoiser纳入子模块，导致嵌套的DAU结构。所提出的去噪/恢复方法中的参数以端到端的方式进行培训。我们的方法是可解释的，并保持参数的数量，因为我们只调谐与图形的正则化参数。我们克服了现有曲线图信号恢复方法中的两个主要挑战：1）由于固定参数，凸优化算法的有限性能由于通常手动确定的固定参数。 2）图形神经网络的大量参数导致训练难度。对曲线信号去噪和插值的几个实验是对合成和真实世界的数据进行的。所提出的方法在两个任务中的根均方误差方面，在几种现有技术上显示了性能改进。

translated by 谷歌翻译

Global Entity Disambiguation with Pretrained Contextualized Embeddings of Words and Entities

Ikuya Yamada , Koki Washio , Hiroyuki Shindo , Yuji Matsumoto

分类：自然语言处理 | 机器学习

2019-09-01

我们提出了一种基于语境化嵌入的单词和实体的全局实体消除歧义（ED）模型。我们的模型基于BERT和培训我们的新培训任务，使模型能够捕获基于Word的本地和基于实体的全局上下文信息。该模型解决了ED作为序列决策任务，有效地使用两种类型的上下文信息。我们在五个标准ED数据集中实现了新的最先进结果：AIDA-CONLL，MSNBC，AQUAINT，ACE2004和WNED-Wiki。我们的源代码和培训的模型检查点可在https://github.com/studio-ousia/luke获得。

translated by 谷歌翻译